データアナリティクス事業本部のビッグデータチームのご紹介
データアナリティクス事業本部ビジネスソリューション部ビッグデータチームの鈴木です。
私の所属しているビッグデータチームは、大変ありがたいことにたくさんのデータ分析基盤構築支援の依頼に対応させて頂いています。今後もっと多くのご依頼に応えられるよう、新規メンバーを募集しています!
この記事では、ビッグデータチームの概要と、どんな業務を行っているのかについてご紹介します。
ビッグデータチームの概要
ビッグデータチームはデータアナリティクス事業本部※の1チームで、データ分析基盤の設計・構築を行うチームです。
データアナリティクス事業本部の別部署であるサービスソリューション部ではCSアナリティクスというより汎用的なデータ統合のサービスを提供していますが、それではカバーしきれないご要望に対しては、ビッグデータチームの出番となります。
具体的なイメージとしては、「全社横断的なデータ活用が必要とされているので、データを統合して管理できるデータレイクやデータウェアハウスの準備、さらにそこにデータを格納するためのETL処理を中心としたアプリケーションの開発・運用をご支援させて頂く」というようなものになります。
※ データアナリティクス事業本部の全体像についてはこちらの記事で取り上げております。
開発環境やチームの体制について
現状、ビッグデータチームで対応させて頂く場合、データ分析基盤自体をAWS上に構築するケースが多いです。
クラスメソッドにとってAWSに関するノウハウは会社としての強みですが、ビッグデータチームも例外ではなく、AWSの知見・経験が豊富なメンバーが所属しています。
一方で、利用するクラウドサービスの種別については特にこだわりがあるわけではなく、最近だとGoogle CloudといったAWS以外のクラウドサービスを利用したご依頼にも対応しています。
ビッグデータチームは受託開発の案件対応が中心ですが、基本的にはお客様からどんな分析環境を用意したいのかというご要望を聞くような要件定義フェーズから入るのがほとんどで、お客様から頂いた仕様書を元に決まったものを粛々と開発するようなケースはほとんどありません。ご依頼を受けた全期間に渡って、ビッグデータチームのデータ分析基盤構築のノウハウ・スキルをご提供しつつ、お客様と一緒に考えながらデータ分析基盤を構築していくことになります。
ビッグデータチームには、現状10名程度所属しており、担当としてはプロジェクトマネージャーとエンジニアがいます。小さめの案件だと3名程度、大きめの案件だと5名+α程度でチームを組んで対応させて頂いています。スクラッチ開発なので、比較的規模が大きいものが多いです。
現在は全員リモートワーク、フルフレックスで勤務しております。開発環境はMacまたはWindowsが選べます。
使用する技術要素
特にエンジニア職で応募される方が気になるのは、実際なんの技術を使って開発してるの?というところだと思うのでご紹介すると、
- 言語
- Python
- SQL
- クラウドサービス
- AWSを中心に使用(Google Cloudを使うケースもあり)
です。
開発時にエンジニアで共通して使っているプログラミング言語はPythonです。データベースにアクセスして検索やETL処理などを行うために、SQLも使っています。コードの管理はGitを使っています。
まずはPythonを使ってAWSとデータを連携したり、SQLを使って処理を書いたりできるというところがエンジニアとして最初に求められるところになります。
またAWSのサービスだと、データレイク・データウェアハウスとしてはS3やRedshiftが多く、LambdaやGlueやStep Functionsなどサーバレスなサービスを使ってデータの格納や加工をコントロールするアーキテクチャを得意としています。
開発した各種アプリケーションは、基本的にAWSのCodeシリーズなどを使って、継続的インテグレーション/継続的デリバリーができるようにこだわっています。アプリケーション以外のリソースも、基本的にCloudFormationなどIaCサービスを使って管理・デプロイするようにしています。
こんな人に向いてるかも
例えば、以下のような関心がある方に向いていると思います。
- データ規模が増えても事故・渋滞の起きないようなアーキテクチャを考えて作ってみたい
- 様々な業種・種類のデータを対象としたデータ分析基盤の構築を行ってみたい
- データの可視化や機械学習などデータの活用に興味がありつつも、データの準備・蓄積に関わってみたい
- Apache Sparkのようなフレームワークや各種データウェアハウスなど、ビッグデータ関係の知見・ノウハウを活かしたい
- AWSを中心としたクラウドサービスを使ったデータ分析基盤構築を経験・実践してみたい
データ連携の要件といってもバッチ/ニアリアルタイム/リアルタイムによって最適な構成や採用するサービス・考えておかないといけないことがらが大きく変わります。データフォーマットも様々で、入力とされたインプットをどのような方法でデータレイク・データウェアハウスに格納し、加工して、以降の分析業務に活かすか考えるのはとても面白いです。
また、貯めたデータを活用して機械学習モデルを作るような際に、「このデータがあったらもっと性能上がりそうなのにな〜」と思うことがありますが、そのデータが実はあるのか、なくても加工すれば得られるならその処理が簡単に拡張可能か、そもそも収集する口がないならその口を新しく準備できるかなど、さまざまなことを考える必要があり、そこはデータ分析基盤のエンジニアの腕の見せ所です。
まず業務に参加頂く段階では、先にご紹介したPythonやSQLの知識で十分ですが、ビッグデータ関連の技術をお持ちの方や興味のある方、効果的なデータ分析基盤構築の方法やアーキテクチャに関心のある方はぜひご検討頂ければと思います。
最後に
今回は、ビッグデータチームのお仕事についてご紹介しました。
ビッグデータチームについて興味を持たれた方、もう少し詳しく知りたい!!という方はぜひこちらからお問い合わせください。
エンジニア募集要項
プロジェクトマネージャー / リーダー募集要項
もっと突っ込んだ話をじっくり聞いてみたいという方にはカジュアル面談もありますので、 エントリーページのご要望欄に「カジュアル面談希望」とお書きください!
データを扱うことが好きな方で、少しでも興味を持って頂けたら ぜひお問い合わせ頂ければと思います!
付録
お仕事/働き方ブログの紹介
本記事以外にも、データアナリティクス事業本部のお仕事/働き方ブログを作成しております!
ビッグデータチームのメンバーの記事もありますので、ぜひご覧ください。
勉強会動画の紹介
弊社で主催していますAKIBA.AWS ONLINEで、昨年11月にビッグデータチームの3名で登壇しましたので、もうちょっとどんな感じのことをしてる人がいるのかな〜と気になる方はぜひご覧ください。
Youtubeはこちらになります。
資料だけご覧になりたい方は、2名分ですが※こちらの記事にアップしています。
- [AKIBA.AWS ONLINE #07]Redshift内のデータの活用をAthenaにオフロードしてみた[資料公開] | DevelopersIO
- [AKIBA.AWS ONLINE #07]S3にあるデータをAthenaのクエリで取得してLambda ( Pandas ) で加工してみた[資料公開] | DevelopersIO
※ 追加予定